Search CORE

25 research outputs found

A reproducible approach with R markdown to automatic classification of medical certificates in French

Author: Beghini Federica
Di Nunzio Giorgio Maria
Henrot Genevi\ue8ve
Vezzani Federica
Publication venue: CEUR-WS
Publication date: 01/01/2017
Field of study

In this paper, we report the ongoing developments of our first participation to the Cross-Language Evaluation Forum (CLEF) eHealth Task 1: “Multilingual Information Extraction - ICD10 coding” (Névéol et al., 2017). The task consists in labelling death certificates, in French with international standard codes. In particular, we wanted to accomplish the goal of the ‘Replication track’ of this Task which promotes the sharing of tools and the dissemination of solid, reproducible results.In questo articolo presentiamo gli sviluppi del lavoro iniziato con la partecipazione al Laboratorio CrossLanguage Evaluation Forum (CLEF) eHealth denominato: “Multilingual Information Extraction - ICD10 coding” (Névéol et al., 2017) che ha come obiettivo quello di classificare certificati di morte in lingua francese con dei codici standard internazionali. In particolare, abbiamo come obiettivo quello proposto dalla ‘Replication track’ di questo Task, che promuove la condivisione di strumenti e la diffusione di risultati riproducibili

Archivio istituzionale della ricerca - Università di Padova

An interactive two-dimensional approach to query aspects rewriting in systematic reviews. IMS unipd at CLEF eHealth task 2

Author: Beghini Federica
Di Nunzio Giorgio Maria
Henrot Genevi\ue8ve
Vezzani Federica
Publication venue: CEUR-WS
Publication date: 01/01/2017
Field of study

International audienc

HAL Descartes

Hal-Diderot

Archivio istituzionale della ricerca - Università di Padova

A lexicon based approach to classification of ICD10 codes. IMS unipd at CLEF eHealth task 1

Author: Beghini Federica
Di Nunzio Giorgio Maria
Henrot Genevi\ue8ve
Vezzani Federica
Publication venue: CEUR-WS
Publication date: 01/01/2017
Field of study

International audienc

HAL Descartes

Hal-Diderot

Archivio istituzionale della ricerca - Università di Padova

In search of the "gold nugget" : A textometric of study of the work of Milan Kundera

Author: Beghini Federica
Publication venue
Publication date: 04/05/2023
Field of study

Cette étude consiste en une analyse linguistique intégrée de l'œuvre de Milan Kundera, écrivain tchèque naturalisé français. Par analyse intégrée, nous entendons une étude linguistique menée à l'aide des méthodes qualitatives et quantitatives. Plus précisément, les méthodes utilisées appartiennent au domaine de la textométrie, discipline dont l'objectif est d'analyser les corpus textuels par le biais d'un traitement informatisé (Guiraud, 1960 ; Lebart, Salem, 1994 ; Pincemin, 2020). Plus généralement, ces travaux pourraient donc être inclus dans le domaine de la stylométrie, puisque cette analyse textométrique est fonctionnelle à la « caractérisation d'une écriture » (Magri, 2010). En effet, l'objectif principal de cette recherche est de détecter par contraste les éléments qui définissent la prose de Kundera. Pour ce faire, deux corpus ont été composés : un corpus d'étude et un corpus de référence (Rastier, 2011). Le premier correspond à la quasi-totalité des textes de l'Œuvre I, II de Kundera (Éd. Gallimard, Pléiade). Le second est représentatif du paysage littéraire français de la période d'activité de Kundera (1968-2013).Ces corpus ont été d'abord numérisés et ensuite examinés à l'aide du logiciel de textométrie Hyperbase (version web et standard), qui emploie à la fois les méthodes classiques d'exploration statistique et le deep learning ou apprentissage profond. Ce logiciel permet diverses analyses aux différents niveaux lexical, morphosyntaxique et sémantique. En particulier, les éléments suivants ont fait l'objet de l'étude : la structure du vocabulaire (la distribution des fréquences, des hapax, la richesse lexicale, la diversité du vocabulaire et l'accroissement lexical) ; les aspects morphologiques et syntaxiques qui peuvent être examinés grâce aux versions lemmatisées et étiquetées des corpus ; les motifs morpho-syntaxiques et multidimensionnels ; les thèmes (les spécificités lexicales, les isotopies et les thèmes récurrents). Ces éléments ont été examinés lors d'une analyse endogène du corpus d'étude et d'une série d'analyses exogènes avec le corpus de référence. En effet, les études comparatives avec le second corpus permettent de neutraliser les caractéristiques linguistiques conformes à la langue littéraire de l'époque dans le genre du roman, de l'essai et de la nouvelle, afin de faire ressortir les éléments de la prose de Kundera qui se distinguent de ce modèle linguistique représentatif de la langue littéraire contemporaine. En outre, les analyses endogènes de l'œuvre de Kundera, possibles grâce à la compilation de sous-corpus, peuvent rendre compte à la fois des constantes stylistiques qui ne varient pas selon le genre, la période ou la langue et des variantes linguistiques qui dépendent des variables diachroniques, génériques et linguistiques. En conclusion, cette étude emploie une méthodologie intégrée (linguistique, statistique, informatique) dans le but de faire ressortir les caractéristiques prototypiques de l'idiolecte de Kundera, à savoir les éléments les plus significatifs de son écriture qui la distinguent de celle d'un échantillon représentatif d'auteurs français à lui contemporains.This study consists of an integrated linguistic analysis of the work of Milan Kundera. By integrated analysis, we mean a linguistic study carried out through qualitative and quanti-tative methods. These methods belong to the field of textometry, a discipline whose objective is to analyse textual corpora through computer processing (Guiraud, 1960; Lebart, Salem, 1994; Pincemin, 2020). More generally, this work could therefore be included in the field of stylometry, since this textometric analysis is functional to the characterization of a style of writing (Magri, 2010). Indeed, the main objective of this research is to detect by contrast the elements that define Kundera's prose. To this end, two corpora were composed : a corpus of study and a reference corpus (Rastier, 2011). The first comprehends almost all the texts of Kundera's Œuvre I, II (Gallimard, Pléiade). The second is representative of the French literary landscape of the period in which Kundera published his texts (1968-2013).The corpora were first digitised and then examined using the textometry software Hyperbase (web and standard version), which employs both classical statistical methods and deep learning techniques (CNN, Convolutional neural network).This software allows various analyses on lexical, morphosyntactic and semantic levels. In particular, the following elements have been investigated : the vocabulary structure, morphological and syntactic aspects, morphosyntactic and multidimensional patterns, and finally the thematic structure.These elements were examined in an endogenous analysis of the corpus of study and in a series of exogenous analyses between the corpus of study and the reference corpus. Indeed, comparative studies between Kundera's work and the contrastive norm represented by the reference corpus aim to isolate the linguistic characteristics of the literary language of the time in novels, essays and short stories, in order to detect the distinguishing elements of Kundera's prose that differ from the linguistic model of his contemporaries' literary language. In addition, endogenous analyses of Kundera's work - made possible by the compilation of subcorpora - can account for linguistic constants that are independent of genre, period and/or language, as well as for linguistic variants determined by literary genre, diachronic and/or linguistic variability. In conclusion, this study employs an integrated methodology (linguistics, literature, statistics, deep learning) with the aim of defining the prototypical features of Kundera's idiolect, that is, the most significant elements that distinguish his writing from that of a representative sample of his contemporary French authors

Theses.fr

Étude textometrique de l’œuvre de Milan Kundera. À la recherche de la « pepite d’or »

Author: BEGHINI FEDERICA
Publication venue: Università degli studi di Padova
Publication date: 04/05/2023
Field of study

Cette étude consiste en une analyse linguistique intégrée de l’œuvre de Milan Kundera, écrivain tchèque naturalisé français. Par analyse intégrée, nous entendons une étude linguistique menée à l’aide des méthodes qualitatives et quantitatives. Plus précisément, les méthodes utilisées appartiennent au domaine de la textométrie, discipline dont l’objectif est d’analyser les corpus textuels par le biais d’un traitement informatisé (Guiraud, 1960 ; Lebart, Salem, 1994 ; Pincemin, 2020). Plus généralement, ces travaux pourraient donc être inclus dans le domaine de la stylométrie, puisque cette analyse textométrique est fonctionnelle à la « caractérisation d'une écriture » (Magri, 2010). En effet, l'objectif principal de cette recherche est de détecter par contraste les éléments qui définissent la prose de Kundera. Pour ce faire, deux corpus ont été composés : un corpus d’étude et un corpus de référence (Rastier, 2011). Le premier correspond à la quasi-totalité des textes de l’Œuvre I, II de Kundera (Éd. Gallimard, Pléiade). Le second est représentatif du paysage littéraire français de la période d'activité de Kundera (1968-2013). Pour le compiler, nous avons sélectionné les textes qui, sur la base de certains critères (prix littéraires, études littéraires, commentaires des critiques), peuvent être considérés comme les plus significatifs de cette période littéraire. Ces corpus ont été d’abord numérisés et ensuite examinés à l’aide du logiciel de textométrie Hyperbase (version web et standard), qui emploie à la fois les méthodes classiques d’exploration statistique et le deep learning ou apprentissage profond. Ce logiciel permet diverses analyses aux différents niveaux lexical, morphosyntaxique et sémantique. En particulier, les éléments suivants ont fait l’objet de l’étude : la structure du vocabulaire (la distribution des fréquences, des hapax, la richesse lexicale, la diversité du vocabulaire et l’accroissement lexical) ; les aspects morphologiques et syntaxiques qui peuvent être examinés grâce aux versions lemmatisées et étiquetées des corpus ; les motifs morphosyntaxiques et multidimensionnels ; le contenu lexical et thématique (les spécificités lexicales, les isotopies et les thèmes récurrents). Ces éléments ont été examinés lors d’une analyse endogène du corpus d'étude et d’une série d'analyses exogènes avec le corpus de référence. En effet, les études comparatives avec le second corpus permettent de neutraliser les caractéristiques linguistiques conformes à la langue littéraire de l'époque dans le genre du roman, de l'essai et de la nouvelle, afin de faire ressortir les éléments de la prose de Kundera qui se distinguent de ce modèle linguistique représentatif de la langue littéraire contemporaine. En outre, les analyses endogènes de l'œuvre de Kundera, possibles grâce à la compilation de sous-corpus, peuvent rendre compte à la fois des constantes stylistiques qui ne varient pas selon le genre, la période ou la langue et des variantes linguistiques qui dépendent des variables diachroniques, génériques et linguistiques. En conclusion, cette étude emploie une méthodologie intégrée (linguistique, statistique, informatique) dans le but de faire ressortir les caractéristiques prototypiques de l’idiolecte de Kundera, à savoir les éléments les plus significatifs de son écriture qui la distinguent de celle d’un échantillon représentatif d’auteurs français à lui contemporains.This study consists of an integrated linguistic analysis of the work of Milan Kundera, a naturalized Czech writer. By integrated analysis, we mean a linguistic study carried out through qualitative and quantitative methods. These methods belong to the field of textometry, a discipline whose objective is to analyse textual corpora through computer processing (Guiraud, 1960; Lebart, Salem, 1994; Pincemin, 2020). More generally, this work could therefore be included in the field of stylometry, since this textometric analysis is functional to the characterization of a writing style (Magri, 2010). Indeed, the main objective of this research is to detect by contrast the elements that define Kundera's prose. To this end, two corpora were composed: a corpus of study and a reference corpus (Rastier, 2011). The first comprehends almost all the texts of Kundera's Œuvre I, II (Gallimard, Pléiade). The second is representative of the French literary landscape of the period in which Kundera published his texts (1968-2013). In order to compile the latter corpus, we have selected those texts which, on the basis of certain criteria (literary prizes, literary studies, critics' works), can be considered the most significant of the aforementioned literary period. The corpora were first digitised and then examined using the textometry software Hyperbase (web and standard version), which employs both classical statistical methods and deep learning techniques (CNN, Convolutional neural network). This software allows various analyses on lexical, morphosyntactic and semantic levels. In particular, the following elements have been investigated: the vocabulary structure, morphological and syntactic aspects, morphosyntactic and multidimensional patterns, and finally the thematic structure. These elements were examined in an endogenous analysis of the corpus of study and in a series of exogenous analyses between the corpus of study and the reference corpus. Indeed, comparative studies between Kundera's work and the contrastive norm represented by the reference corpus aim to isolate the linguistic characteristics of the literary language of the time in novels, essays and short stories, in order to detect the distinguishing elements of Kundera's prose that differ from the linguistic model of his contemporaries' literary language. In addition, endogenous analyses of Kundera's work – made possible by the creation of subcorpora – can account for stylistic constants that are independent of genre, period and/or language, as well as for linguistic variants determined by literary genre, diachronic and/or linguistic variability. In conclusion, this study employs an integrated methodology (linguistics, statistics, deep learning) with the aim of defining the prototypical features of Kundera's idiolect, that is, the most significant elements that distinguish his writing from that of a representative sample of his contemporary French authors

Archivio istituzionale della ricerca - Università di Padova